Day 29 / DL x RL / RL 總結與發展

第 12 屆 iThome 鐵人賽

DAY 30

AI & Data

Knock Knock! Deep Learning系列第 30 篇

12th鐵人賽

pyliaorachel

2020-10-14 09:42:33

2769 瀏覽

分享至

RL 子系列到這邊要告一段落了，整個系列文也接近尾聲。RL 是個很有趣的主題，有很多內容可以介紹，但礙於篇幅限制，講得略顯倉促。

接下來就來總結一下我們在這個子系列學過的東西，以及一些 RL 未來發展的難題。

總結

RL 具有彈性的架構，讓他能夠應用在許多場合。但直到 deep learning 風潮的出現，在 2013 年 DL 和 RL 結合的 deep Q-network 訓練出能玩 Atari 玩得比人類更好的 AI，RL 的未來性才又受到更多重視。

RL 在遊戲與機器人領域自此都有了很多突破。2016 年 AlphaGo 在最複雜的遊戲 —— 圍棋中打敗頂尖職業棋士，震撼世界。此後的 AlphaGoZero 完全靠著 RL 而不倚賴人類棋譜學習，棋力更勝 AlphaGo，也讓人見識到 RL 深不可測的潛力。

雖然有此成就，但遊戲畢竟是相對好模擬的環境。RL 在硬體控制系統的學習挑戰又更多，而很多更實用的應用也都基於更複雜的環境。RL 能否在其他領域有更多突破，值得期待。

接著我們簡單介紹 RL 的一些任務和未來發展。

RL Tasks

RL 的應用太多了，只要是在做決策，都可以用 RL 訓練。這邊列舉一小部分：

Games
Robotics
- Motion control：學習走路、跑步、打球等等
Self-Driving Car
Healthcare
- Dose prediction：決定用藥劑量
- Treatment recommendation：決定治療方法
Recommendation System
Advertising
- Bidding & targeting
Resource Management
- Resource allocation：有限資源如何分配不同 computer cluster、thread 等等
Generative Models
- Image generation：將生成視為 action，生成圖像的真實度視為 reward
- Text generation
Science
- Chemical reaction optimization：將一連串化學反應視為 action 進行優化
- Protein-protein interaction network construction
Social Learning
- Social behavior modeling：學習人類在社會中的行為
And many others

RL 發展

最後我們來看看 RL 未來發展和難題。

Real-World Simulation & Sample Complexity

RL 之所以在遊戲界這麼成功，一部分原因是環境本身是虛擬的。如果要將 RL 帶進機器人或自駕車，那麼一大難題就是如何讓 agent 在真實環境中互動訓練。總不可能讓一台自駕車自己去荒野亂開，肯定沒兩三下就撞到稀巴爛；或是讓機器人在空地學跑步，跌個一兩下就要進廠維修了。所以目前這些任務都是先放在模擬環境中或藉由 human data 訓練後，再移到真實環境中繼續調整。

如何架構真實的模擬環境，雖然不算是 RL 訓練中的一部分，卻是對訓練效果影響非常大的前置作業。例如在 [3] 中，作者藉由大量真實世界的影像，建構一個逼真的自駕車訓練環境，訓練出的 agent 是可以直接上路不需要額外在真實環境中調整。而有了真實的模擬環境，也更能激發 RL 的潛能，能從模仿人類到自己獨立學會做決策，也更有機會學到人類還沒學會的事。

另一個訓練難題是 sample complexity，也就是需要多少 sample 才能訓練好一個 model。Sample complexity 越小，就代表 RL 能被實際應用的可行性越高，成本越小。如何減小 sample complexity，增加 RL 學習效率，也是未來發展值得注重的一點。

Multi-Agent Reinforcement Learning

目前最多人探討的 RL 大多屬於 single-agent，也就是只有一個 agent 在環境中學習。但很多更複雜的任務裡，會有不只一個 agent 在環境中，每個 agent 都要學習最大化自己的 reward，而行為的 policy 也跟其他 agent 息息相關。將 RL 應用在這些任務中就稱為 multi-agent RL (MARL)。

MARL
—— MARL 三個不同 setting。[5]